返回
推导了贝尔曼最优方程(Bellman Optimality Equation)及其不动点性质,解析了Value Iteration的收敛原理(Contraction Mapping),并讨论了系统模型与奖励函数对最优策略的决定作用。
reinforcement learning
bellman optimality
value iteration
学习笔记